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摘要 : 


[ 目的 ] 在 海量 文献 中 , 挖掘 并 预测 生物 医学 实体 之 间 的 新 关联 , 构建 关联 网 络 。[ 方法 】 提 出 一 种 基于 


数据 立方 体 的 新 方法 挖掘 疾病 -基因 -药物 间 关 联 ， 以 糖尿 病 为 例 , 构建 关联 网 络 ， 并 使 用 关联 规则 量化 实体 关 
联 程 度 。[ 结果 】 由 糖尿 病 相关 疾病 (14 种 )、 基 因 (23 种 ) 和 药物 (24 种 ) 构 建 三 个 1-D 方 体 、 三 个 2-D 方 体 及 其 关 
联网 络 和 一 个 3-D 方 体 关联 网 络 , 共计 存在 411 种 关联 ， 同 时 得 到 8 个 关联 子 网 。【 局 限 】 数 据 预 处 理 存 在 主观 
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性 , 可 能 会 对 挖掘 结果 产生 影响 。[ 结论 】 算 法 性 能 优 于 其 他 同类 算法 , 能够 为 糖尿 病 精准 医疗 提供 更 好 的 新 研 
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生物 医学 文献 正在 以 前 所 未 有 的 速度 增长 ， 其 摘 
要 中 包含 了 海量 的 实验 结果 、 基 因 表 型 描述 和 药 效 信 
息 ,整理 挖掘 其 中 有 效 信息 , 已 成 为 生物 知识 发 现 和 
生物 医学 研究 中 一 个 重要 手段 站。 如 何 才能 有 效 利用 
这 些 文本 中 所 蕴含 的 生物 医学 知识 ,无疑 对 分 析 海 量 
生物 医学 数据 是 非常 重要 的 , 常用 方法 是 通过 关键 词 
直接 检索 , 但 是 这 只 能 从 大 量 文档 集合 中 找到 用 户 需 
求 相 关 的 文件 列表 ， 而 不 能 从 文本 中 直接 获取 用 户 感 
兴趣 的 信息 。 因 此 , 如何 从 大 规模 生物 医学 文献 中 自 
动 挖掘 相关 知识 是 一 项 迫 在 计 睫 的 任务 。 常 见 的 生物 
实体 间 关 联 的 研究 有 : 和 蛋白质 与 基因 的 关联 中 ,药物 
与 药物 的 关联 中 ,药物 与 疾病 的 关联 外 等 。 

数据 立方 体 (Data Cube) 中 能 够 存放 多 个 数据 维 (如 
疾病 、 基 因 和 药物 ) 上 的 预计 算 度量 (如 关联 强度 ), 用 


m} 


户 可 以 以 多 维 方式 ,通过 如 下 销 或 上 卷 这 样 的 联机 分 
析 处 理 (OLAP) 操 作 探 查 数据 ,进行 数据 分 析 和 知识 发 
现 , 探索 感 兴趣 的 模式 。 

本 文 基于 数据 立方 体 探查 多 维 空间 中 的 数据 , 同 
时 使 用 关联 规则 计算 实体 间 的 关联 度 ， 以 糖尿 病 为 例 ， 
构建 糖尿 病 相关 疾病 -基因 -药物 关联 网 络 , 分 析 并 探 
讨 实体 间 潜 在 关联 , 突出 并 挖 据 关联 网 络 中 的 关键 节 
点 ,提出 实验 性 研究 假设 , 为 研究 人 员 对 今后 有 关 糖 
屎 病 的 诊断 与 治疗 、 疾 病 候 选 基因 筛选 、 靶 向 药物 和 
个 性 化 医疗 等 研究 提供 数据 支持 和 新 的 研究 思路 。 


2 相关 研究 


目前 与 疾病 有 关 的 生物 医学 文本 挖掘 研究 大 多 集 
中 在 基因 的 功能 信息 上 ,如 : 对 疾病 基因 和 疾病 候选 
基因 的 分 类 排序 中 ,使 用 图 论 构 建 疾病 与 疾病 基因 关 
联 度 的 网 络 模型 中 利用 定量 性 框架 模型 综合 分 析 疾 
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数据 分 析 与 知识 发 现 


病 基 因 与 蛋白 质 之 间 的 作用 预测 药物 新 靶 点 四 以 及 计 
算 药物 重新 定位 站 等 ,而 关于 疾病 与 多 个 其 他 实体 的 
关联 挖掘 属于 一 个 新 兴 的 研究 领域 。 

生物 实体 关联 挖掘 方法 有 多 种 ， 如 : Lamb SENIA) 
用 具有 生物 活性 的 小 分 子 治疗 基因 表达 谱 数 据 , 开 发 
"Connectivity Map R, 用 于 挖掘 化 学 与 生理 过 程 、 
疾病 与 药物 之 间 的 小 分 子 共享 作用 机 理 , 依 此 挖掘 疾 
病 - 药 物 之 间 的 关联 。Natarajant "在 文献 中 获得 疾病 、 
基因 的 多 种 特征 ， 从 OMIM 得 到 已 知 疾病 -基因 关联 ， 
对 比 之 后 , 挖掘 出 120 对 基因 -疾病 新 关联 。Odibat 45:071 
提出 一 种 基于 排序 任意 重重 定位 协同 聚 类 算法 , 并 依 
此 构建 判别 模型 ， 通 过 对 基因 表达 数据 集 的 分 析 运 算 ， 
可 以 有 效 分 类 疾病 基因 表达 结果 。Li 等 构建 了 一 个 
用 于 判断 疾病 与 候选 基因 随机 集 优 先 级 的 评分 模型 ， 
使 用 基于 网 络 与 表 型 分 析 的 方法 在 生物 医学 文献 中 进 
行 数据 挖 气 ,该 模型 能 够 较为 精准 地 将 已 知 致 病 基 因 
进行 排序 , 同时 也 能 在 一 定 程度 上 预测 新 的 候选 疾病 
基因 。 这 些 研究 使 用 不 同方 法 挖掘 生物 实体 关联 , 为 
相关 研究 提供 了 多 种 思路 , 但 使 用 数据 立方 体 挖掘 三 
个 生物 实体 关联 的 方法 , 笔者 所 知 ， 尚 未 见报 道 。 
CoPub! "F PubGene 在 两 者 关联 挖掘 中 与 本 文 方法 
较为 类 似 , 但 前 者 挖掘 了 基因 -疾病 、 药 物 - 疾 病 的 关 
联 ， 其 结果 经 ROC 曲线 验证 后 ,最 高 只 有 70% 
(R-scaled Score 三 20)， 而 后 者 只 挖掘 了 基因 -基因 间 的 
关联 , 结果 精确 度 仅 有 6096, 而且 这 两 项 研究 并 没有 
将 三 者 关联 综合 构建 网 络 ,分 析 不 够 全 面 。 

综 上 , 目前 大 多 数 关 联 挖掘 方法 都 是 在 两 个 生 
物 实体 之 间 进 行 研究 的 ,对 三 个 及 三 个 以 上 的 实体 
关联 挖掘 方法 研究 较 少 , 而且 结果 精度 均 不 高 ， 这 对 
预测 结果 的 可 信和 度 会 造成 较 大 影响 。 因 此 , 本 文 基于 
数据 立方 体 将 疾病 -基因 -药物 三 者 结合 构建 关联 网 
络 , 挖掘 三 者 之 间 的 新 关联 ， 提 高 算法 性 能 以 及 挖掘 
精确 度 。 


3 计算 方法 及 过 程 


疾病 基因 药物 数据 立方 体 关联 网 络 是 由 两 两 关联 
组 合 构成 的 ,实现 步 又 如 下 : 

(1) 对 文献 进行 数据 预 处 理 ， 获 得 数据 立方 体 的 
0-D 顶点 方 体 和 三 个 1-D F; 

(2) 设 定 最 小 support 阔 值 ,依据 关联 规则 计算 得 到 
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三 个 2-D 方 体 内 疾病 、 基 因 和 药物 之 间 的 两 两 关联 度 ; 

(3) 使 用 BUC 算法 构建 数据 立方 体 , 得 到 3-D 基 
本 方 体内 的 实体 间 关 联 度 ; 

(4) 利用 R 语言 实现 多 维 方 体 的 关联 网 络 的 可 视 
化 , 分 析 关 联网 络 的 分 布 程度 和 不 同 模式 的 识别 程度 。 

(5) 使 用 ROC 曲线 验证 本 文 算法 的 准确 性 和 可 靠 性 。 
3.1 ”数据 预 处 理 

由 于 文献 摘要 是 自然 语言 书写 , 属于 非 结 构 化 数 
Js, 所 以 需 先进 行 数据 标准 化 预 处 理 , 不 同 研 究 者 侧 
重点 不 同 , 本 文 设 定 如 下 步骤 进行 处 理 : 

(1) 将 文献 摘要 所 有 字母 转 为 小 写 ; 

(2) 把 文本 转化 为 单独 句子 ; 

Q) 去 除 标点 符号 以 及 与 本 研究 无 关 的 词 ， 如 : 
“this”, "ane 

(4) 替换 希腊 字母 ， 如 :“o 一 Alpha” 等 ; 

(5) 基于 词典 (Gene Dictionary” 和 “Drug dictionary") 
比 对 词 集中 实体 名 称 , 者 二 者 与 词典 中 名 称 (或 别名 、 
编号 等 ) 相 同 ， 即 可 认定 发 现 了 一 个 实体 对 象 ; 

(6) 挖掘 出 所 需 实体 并 记录 其 所 在 文献 的 PMID 
号 , 用 于 后 续 关联 挖掘。 
通过 上 述 算法 , 将 糖尿 病 相关 文献 摘要 中 的 基 
因 、 药 物 实体 名 称 进行 处 理 和 合并 , 最终 得 到 规范 化 
的 0-D 方 体 数据 。 

3.2 ”数据 立方 体 

数据 立方 体 (Data Cubo 由 维和 事实 定义 , 维 是 
一 个 单位 (或 一 次 研究 ) 想 要 记录 的 透视 或 实体 , 常用 
于 商业 数据 关联 挖掘 。 本 文 将 从 PubMed 中 下 载 的 生 
物 医学 文献 作为 数据 仓库 , 创新 性 地 提出 将 生物 实体 
(如 : 疾病 、 基 因 、 药 物 ) 作 为 维 , 其 中 每 个 维 都 有 与 之 
相关 联 的 表 , 该 表 称 之 为 维 表 。 同 时 使 用 support, lift 
的 值 作为 事实 度量 标准 , 这样 即 将 生物 实体 关联 转变 
为 立方 体 中 维 与 维 之 间 的 关联 。 

在 数据 立方 体 中 , 以 disease, gene, drug 三 个 属 
性 作为 维 ， 以 support 和 lift 的 值 作为 度量 , 将 该 立方 
体 计算 的 方 体 或 分 组 总 数 为 8 个 , 分 别 为 {(disease， 
gene, drug), (disease, gene), (disease, drug), (gene, drug), 
(disease), (gene), (drug), ( )}, 其 中 ( ) 意 味 着 分 组 为 空 ， 
所 以 实际 上 有 7 个 分 组 ,这 些 分 组 构成 了 该 数据 立方 


表示 分 组 为 空 的 情况 , 包含 所 有 可 能 关联 。 
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0-D (顶点 ) 方 体 


3-D (基本 ) 方 体 


(disease, gene, drug) 


图 1 数据 立方 


( 注 : 由 方 体 的 格 组 成 三 维 数据 立方 体 , 每 一 个 立方 体 代表 一 个 
不 同 的 分 组 ; 基本 方 体 包含 三 个 维 : disease, gene 和 drug。) 
3.3 ”关联 规则 

在 数据 立方 体 中 度量 关联 时 , 需要 用 到 以 下 术语 
与 度量 指标 : 

(1) 支持 度 support 用 于 衡量 集合 内 各 项 出 现 的 频 
次 阐 值 ， 如 公式 (1) 所 示 。 

support(4 > B) = P(AU B)=a/ N (1) 

(2) 提升 指数 lift 能 够 评估 一 个 预测 模型 是 否 有 
效 , 体现 集合 {A} 对 得} 的 重要 性 ， 如 公式 (2) 所 示 。 
confidence(4 > B) — P(AUB) Q) 

P(A) P(A)P(B) 

若 值 为 1, WA Ej B 无 关联 ; 者 值 小 于 1, 则 A 与 
B 相 斥 ; 若 值 大 于 1, 则 值 越 高 , A 与 B 之 间 的 关联 规 
则 越 有 价值 。 本 文 考虑 相关 实体 可 能 只 是 在 文献 摘要 
中 偶尔 或 对 比 提 及 , 不 属于 研究 内 容 , TEASE life H 
值 为 3， 即 置信 度 在 99.8% 以 上 或 关键 值 标准 偏差 是 标 
准 正 态 分 布 3 HE E, 即 认为 两 者 具有 强 关联 性 ， 如 
lift>3 就 是 具有 强 关 联 性 。 
3.3 BUC 算法 

7kScC IUS vr 7; PRSE. Ee ib UK ILE Sz 77 e 
(Iceberg Cube)", 因此 适合 使 用 自 底 向 上 构造 (Bottom- 
Up Construction，BUC) 算 法 上 构建 此 数据 立方 体 的 关 
联网 络 ， 该 算法 自 顶 向 下 钻 ， 即 从 高 聚集 单元 向 较 低 、 
更 细 化 的 单元 移动 , 详细 算法 见 文 献 [17-18]。 
3.4 新 关联 预测 

构建 实体 关联 网 络 后 ， 可 以 发 现 有 些 关联 ( 即 网 络 
中 的 边 ) 是 生物 医学 资料 中 从 未 报道 过 的 新 关联 ,也 就 
是 关联 挖掘 的 假 阳 性 结果 , 但 这 并 不 意味 着 这 些 结果 
没有 用 处 , 恰恰 相反 , 这 也 是 生物 实体 关联 挖掘 的 主 


lift(A— B) = 
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要 目的 之 一 , 预测 新 实体 关联 中 。 这 样 通过 构建 三 者 
关联 网 络 再 挖掘 出 的 实体 新 关联 ( 边 )， 比 以 往 两 两 实 
体 预 测 新 关联 ， 具有 更 高 的 可 信 度 , 还 可 能 挖掘 出 更 
深层 次 的 新 关联 。 最 后 使 用 关联 规则 将 所 得 预测 结 
计算 并 排序 , 列 出 可 能 性 最 大 的 实体 新 关联 ， 为 生物 
学 研究 者 设计 实验 方向 提供 数据 支持 。 
3.5 及 语言 实现 和 R 曲线 验证 

R 语言 是 一 种 为 统计 计算 和 绘图 而 生 的 语言 和 环 
境 , 包含 超 过 5 000 种 开源 包 ( 如 igraph 扩展 包 ), 能 
较为 轻松 地 构建 关联 网 络 请。ROC 曲线 检测 算法 的 准 
确 性 适用 于 二 分 类 情况 , 现 已 广泛 应 用 于 医学 诊断 实 
验 性 能 的 评价 RT。 因此 ， 本 文采 用 R 语言 实现 关联 网 
络 , 并 用 ROC 曲线 判别 算法 性 能 。 


4 实验 过 程 及 结果 


4.1 数据 来 源 

从 Entrez GENE”! Gene Ontology?"!, OMIMP?!, 
DrugBank"* ^54 Pe P aO E vr SE DAL Z5 o s E 
词典 ， 命 名 为 “Gene Dictionary" (Ebt 40 172 个 人 类 基 
因 词 条 ) 和 “Drug_Dictionary”( 共 计 1 763 种 药物 词 条 ) 
词典 , 词典 包括 每 个 基因 (药物 ) 的 标准 名 称 、 别 名 、 同 
义 词 、 标 准 编 号 等 属性 。 以 这 两 个 词典 为 标准 进行 命 
名 实体 识别 。 

其 次 ,以 糖尿 病 为 例 , 在 PubMed 中 使 用 
“("diabetes mellitus" [MeSH Terms] OR ("diabetes" [All 
Fields] AND "mellitus" [All Fields] OR "diabetes 
mellitus" [All Fields] OR "diabetes" [All Fields] OR 
"diabetes insipidus" [MeSH Terms] OR ("diabetes" [All 
Fields] AND "insipidus" [All Fields]) OR "diabetes 
insipidus" [All Fields] AND ("2014/08/20" [PDAT] : 
"2015/08/20" [PDAT])” 为 检索 策略 ,获取 一 年 内 与 糖 
尿 病 相 关 文 献 共 计 37 373 篇 ,并 以 文本 格式 保存 至 本 
地 磁盘 。 由 于 本 文 是 对 文献 的 摘要 进行 实体 关联 挖掘 ， 
所 以 剔除 其 他 无 用 信息 (如 作者 、 发 表 日 期 等 )。 

糖尿 病 分 1 型 糖尿 病 、2 型 糖尿 病 等 多 种 不 同 病 
AE, 为 了 深入 探讨 疾病 基因 药物 之 间 的 关联 , 需要 对 
糖尿 病 进一步 分 类 。 在 MeSH 词 表 中 糖尿 病 属于 营养 
代谢 系统 疾病 和 内 分 泌 系 统 疾 病 , 分 别 存在 7 种 分 类 ， 
糖尿 病 并 发 症 是 相关 症状 的 总 称 ， 如 表 1 所 示 。 其 中 ， 
“Diabetes Mellitus, Type 1” 和 “Diabetes Mellitus, Type 
2” 以 下 简写 为 <T1DM”* 和 “T2DM”。 
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E1 糖尿 病 在 MeSH 词 表 中 的 分 类 


营养 性 系统 疾病 下 的 分 类 内 分 泌 系统 疾病 下 的 分 类 糖尿 病 并 发 症 的 分 类 
英文 名 称 中 文 名 称 英文 名 称 中 文 名 称 英文 名 称 中 文 名 称 
Diabetes Melli xc aps ! : ; ; p 
pes n 实验 性 糖尿 病 Diabetes Complications 糖尿 病 并 发 症 Diabetic Angiopathies ”糖尿 病 性 血管 病 
Experimental 
, : . PE Diabetic : -- 
Diabetes Mellitus, Type 1 1 型 糖尿 病 Diabetes, Gestational 妊娠 糖尿 病 3 À 证 尿 病 性 心肌 病 
Cardiomyopathies 
Diabetes Mellitus, Type 2 ”2 型 糖尿 病 Gn Mellitus, 实验 性 糖尿 病 Diabetic Coma 糖尿 病 性 昏迷 
Experimental 
Diabetes, Gestational 妊娠 糖尿 病 Diabetes Mellitus, Type 1 1 型 糖尿 病 Diabetic Ketoacidosis — 糖尿病 性 酮 症 酸 中 毒 
Diabetic Ketoacidosis 糖尿 病 酮 症 酸 中 毒 ”Diabetes Mellitus, Type2 2 型 糖尿 病 ， Diabetic Nephropathies “糖尿病 性 肾病 
Donohue Syndrome 多 诺 堆 综合; Donohue Syndrome 多 诺 堆 综合 症 Diabetic Neuropathies ” 糖尿病 性 神经 病 
Prediabetic State 糖尿 病 前 期 Prediabetic State 糖尿 病 前 期 Fetal Macrosomia 巨大 胎儿 ( 症 ) 
4.0 0-D 顶点 方 体 JE, E support WEW 0.1%, 得 到 三 磷酸 腺 苷 等 24 
本 文 的 0-D 顶点 方 体 ， 即 预 处 理 后 得 到 的 “(alD) 词 ” 种 药物 的 support 值 满足 大 于 最 小 支持 度 (0.1%) 的 条 
项 集 ”， 是 糖尿 病 数 据 立方 体 的 顶点 , 也 是 后 续 研究 的 。 件 , 由 此 构建 1-D 方 体 (drug) 维 。 


数据 基础 。 
43 1-D 方 体 疾病 维 、 基 因 维 和 药物 维 

综合 表 1， 去 重 后 得 到 : 实验 性 糖尿 病 、1 型 糖尿 
病 、 糖尿 病 性 血管 病 、 糖尿 病 性 昏迷 等 共计 14 种 糖尿 
病 相 关 病 症 ， 由 此 构建 数据 立方 体 中 1-D 方 体 
(disease) 维 ; 以 “Gene_Dictionary” 词 典 为 标准 ， 对 糖尿 
病 数 据 立方 体 中 的 0-D 顶点 立方 体 进行 过 滤 ， 由 于 可 
能 部 分 基因 在 摘要 中 只 是 偶尔 提 及 ,为 了 排除 干扰 ， 
设 定 support HEX 0.1%, 得 到 ABCCS 等 23 种 基因 
的 support 值 满 足 大 于 最 小 支持 度 (三 0.1%) 的 条 件 ,由 
此 构建 1-D 方 体 (gene) 维 ; 以 “Drug_Dictionary”* 词 典 为 
标准 ， 对 糖尿 病 数据 立方 体 中 的 0-D 顶点 方 体 进 行 过 


4.4 2-D 疾病 基因 方 体 关 联网 络 

依据 前 述 关联 算法 , 得 到 14 种 糖尿 病 相关 病症 和 
23 种 基因 产生 的 194 种 关联 ， 其 中 2 型 糖尿 病 、 糖 尿 
病 性 神经 病 、 糖尿病 性 肾病 和 实验 性 糖尿 病 与 23 种 
基因 均 具有 关联 ; 1 型 糖尿 病 不 与 IPF1 和 SUMO4 
关联 , 与 其 他 21 种 基因 相关 ; 糖尿 病 性 心肌 病 不 与 
基因 GAD2, IPFI 和 SUMO4 关联 ; 糖尿 病 性 血管 
病 不 与 基因 DAD2, IPF1, PTPRN 和 SUMO4 相关 ; 
与 妊娠 糖尿 病 、 糖 尿 病 酮 症 酸 中 毒 、 糖 尿 病 性 昏迷 
相关 的 基因 分 别 有 11、8、2 种 .由 此 得 到 2-D(disease, 
gene) 方 体 ， 并 生成 糖尿 病 相关 疾病 基因 关联 网 络 ， 
如 图 2 所 示 。 
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图 2 (disease, gene)2-D 方 体 的 关联 网 络 
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2 中 的 实验 性 糖尿 病 、2 型 糖尿 病 、 糖 尿 病 性 
肾病 和 糖尿 病 性 神经 病 这 4 种 糖尿 病 相关 病症 与 23 
种 基因 均 具 有 关联 。1 型 糖尿 病 不 与 基因 IPF1 .SUMO4 
相关 ,糖尿 病 性 血管 病 不 与 基因 GAD2 、IPF1 、 
PTPRN 、SUMO4 相关 , 糖尿病 并 发 症 不 与 基因 
SUMO4 、WFS1 相关 , 糖尿病 性 心肌 病 不 与 基因 
GAD2、IPF1、SUMO4 相关 , 但 这 4 种 病症 与 剩 下 的 
其 他 基因 具有 关联 性 。 多 诺 堆 综合 证 、 糖 尿 病 前 期 和 巨 
大 胎儿 ( 症 ) 与 本 文 得 到 的 23 种 基因 均 不 具有 关联 性 。 
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4.5 2-D 疾病 药物 方 体 关 联网 络 

通过 关联 算法 计算 ， 有 10 种 药物 与 糖尿 病 相关 病 
证 无 关 , 分 别 是 : p-D- 葡 萄 糖 (Beta-D-Glucose)、 糖 类 多 
酮 类 复合 化 合 物 19(Compound 19)、 布 洛 芬 (Ibuprofen) 
等 ; 有 4 种 病症 与 药物 之 间 不 存在 关联 , 分 别 是 : 糖尿 
病 性 置 迷 、 巨 大 胎儿 ( 症 )、 糖 尿 病 酮 症 酸 中 毒 和 多 诺 
堆 综 合 症 。 最 终 得 到 24 种 药物 和 11 种 糖尿 病 相关 病 
JE, 以 及 它们 之 间 的 75 种 关联 ， 由 此 生成 2-D(disease， 
drug) 方 体 , 使 用 RR 语言 构建 该 关联 网 络 ， 如 图 3 所 示 。 
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图 3 (disease, drug)2-D 方 体 的 关联 网 络 


4.6 2-D 基因 药物 方 体 关 联网 络 

通过 关联 算法 , 得 到 14 种 基因 与 15 种 药物 组 成 的 
142 种 关联 , 构成 了 2-D(gene, drug) 方 体 , 关联 网 络 如 图 4 
所 示 , 得 到 基因 WFS1 与 药物 三 磷酸 脾 背 具有 单 相关 性 ， 
而 其 他 的 关联 均 具 有 多 重 性 ， 即 一 种 基因 关联 多 种 药物 
或 一 种 药物 关联 多 种 基因 。 如 : 基因 ABCC8 对 应 10 种 药 
物 , 药物 二 十 碳 五 烯 酸 对 应 8 种 基因 。ATP 敏感 性 钾 通 道 
中 产生 的 变 体 E23K 和 S1369A 可 以 在 基因 ABCC8、 
KCNJI1 中 找到 , 这 2 个 变 体 可 能 会 对 一 些 药物 , 如 : 那 格 
列 奈 等 , 在 治疗 2 型 糖尿 病 的 过 程 中 产生 抑制 力 ®7。 
4.7 3-D 疾病 基因 药物 方 体 关 联网 络 

使 用 BUC 算法 构建 糖尿 病 基因 药物 数据 立方 体 ， 
WERD lift RBS 3, 去 重 后 ,14 种 糖尿 病 病 症 、23 
种 基因 和 24 种 药物 之 间 得 到 411 种 关联 , 使 用 尺 语言 
构建 出 糖尿 病 数据 立方 体 的 (disease, gene, drug)3-D 基 
本 方 体 的 关联 网 络 ， 如 图 5 所 示 。 

同时 , 为 了 深入 探讨 每 种 糖尿 病 病 症 的 疾病 基因 
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药物 之 间 的 关联 , 分 别 对 8 种 糖尿 病症 状 构建 子 网 模 
型 ， 如 图 6 所 示 。 
相关 研究 发 现 , 茶 扎 贝 特 与 2 型 糖尿 病 有 和 较 大 关 
KK, 对 于 治疗 2 型 糖尿 病 具有 较 好 的 疗效 ， 有 助 于 血 
糖 调节 中 同样 , 格 列 唑 酮 在 实验 性 糖尿 病 中 的 治疗 
效果 , 也 有 相关 文献 [29] 进 行 过 报道 ; 2 型 糖尿 病 的 易 
感 基因 KCNJ11 部 分 发 病 机 制 也 得 到 验证 FE。 

由 图 5 和 图 6 可 得 ,糖尿 病 疾病 、 基 因 和 药物 这 
三 者 都 均 有 关联 性 的 有 318 H, 如: (1 型 糖尿 病 ， 
ABCCS, 三 磷酸 腺 苷 )，(2 型 糖尿 病 , ABCCS, AFLI] 
特 )，( 实 验 性 糖尿 病 , ENPP1， 瑞 格 列 奈 ) 等 。 从 疾病 角 
度 分 析 , 有 9 种 糖尿 病 病 症 存在 三 者 关联 ， 如 : 1 型 糖 
KIRA 19 组 , 32 种 两 两 关联 ; 2 型 糖尿 病 有 126 组 , 153 
种 关联 等 ,其 中 媳 娠 糖尿 病 组 数 最 少 , 只 有 8 组 15 种 
关联 , 与 5 种 基因 和 2 种 药物 之 间 存 在 关联 。 在 糖尿 
病 并 发 症 中 , 糖尿 病 性 肾病 组 数 最 多 , 有 60 组 及 80 
种 两 两 关联 , 属于 关联 网 络 中 的 关键 节点 。 
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图 4 (gene, drug)2-D 方 体 关 联网 络 
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图 6 8 种 疾病 关联 子 网 
QÈ: a: 2 型 糖尿 病 ; b: 实验 性 糖尿 病 ; c: 糖尿 病 血管 病 ; d: 糖尿 病 性 神经 病 ; ez 糖尿 病 心肌 病 ; f: 糖尿 病 肾病 ; g: 1 型 糖尿 病 ; h: 妊娠 糖尿 病 ) 
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本 文 将 整个 关联 网 络 以 糖尿 病 相 关 病 症 为 标准 ， 
分 解 出 8 个 子 关联 网 络 , 更 有 助 于 发 现 糖 尿 病 相关 病 
症 中 的 候选 基因 和 候选 药物 ,以 及 推断 疾病 、 基 因 药 
物 间 的 新 关联 。 例 如 : 对 疾病 基因 2-D 方 体 的 关联 网 
络 研究 发 现 , 基因 ABCC8 和 KCNJ11 与 2 型 糖尿 病 具 
有 相关 性 , 这 两 种 基因 的 变异 可 以 引起 新 生 儿 童 糖尿 
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病 以 及 家 族 性 持续 性 高 胰岛 素 低 血 糖 证 " … 但 在 不 同 
人 种 中 的 实验 结果 存在 差异 。 
4.8 新 关联 预测 结果 

部 分 糖尿 病 的 疾病 -基因 ,疾病 -药物 和 基因 -药物 
之 间 关联 程度 排名 靠 前 但 尚未 报道 的 实体 对 如 表 2 所 
m, 其 中 基因 名 参照 《英汉 人 类 基因 词典 》 中 。 


表 2 预测 部 分 关联 程度 较 高 但 尚未 证 实 的 生物 实体 间 新 关联 


Rel EN 1 Description 1 EN 2 Description 2 
Diabetic Neuropathies ”糖尿 病 性 神经 病 IPF1 transcription factor 1 
1 Diabetic Neuropathies “糖尿病 性 神经 病 SUMO4 eh 
a Diabetic Nephropathies 糖尿 病 性 肾病 IPFI transcription factor 1 
S 
”Diabetic Nephropathies 糖尿 病 性 肾病 SUMO4 UE 
Iron Dextran TUE BE BPEK Diabetic Angiopathies 糖尿 病 性 血管 病 
ATARA A EMSA EEE HR T2DM 2 型 糖尿 病 
$ 异常 的 潜在 新 型 候选 药物 
Telmisartan TK UP IH Diabetic Neuropathies 糖尿 病 性 神经 病 
Aleglitazar 阿 格 列 扎 Diabetic Nephropathies 糖尿 病 性 肾病 
IRS2 insulin receptor substrate 2 Icosapent 二 十 碳 五 烯 酸 
Q PPARG peroxisome proliferator-activated receptor gamma Icosapent 二 十 碳 五 焕 酸 
d IRS2 insulin receptor substrate 2 Levosimendan A Uu us H. 
& GCK glucokinase (hexokinase 4) Levosimendan A Uu us H. 
ENPPI ectonucleotide pyrophosphatase/ phosphodiesterase 1 — Myristic Acid ATER 


QË: EN as Entity Name. Rel as Relation) 


K 2 中 尚未 证 实 的 成 对 关联 ， 可 为 研究 人 员 提 供 
新 的 研究 思路 , 例如 : 目前 尚 无 文献 报道 基因 SUMO4 
与 糖尿 病 性 神经 病 、 糖 尿 病 性 肾病 之 间 是 否 存 在 关联 ， 
不 过 , 文献 [33] 指 出 ，! 型 糖尿 病 患 者 中 的 SUMO4 基 
因 多 态 性 M55V 与 糖尿 病 性 视网膜 病变 的 患 病 率 降低 
有 关 , 认为 通过 SUMO4 蛋白 质 转译 后 的 修改 可 能 
致 某 些 糖尿 病 并 发 症 的 发 展 , 它们 之 间 存 在 关联 的 可 
能 性 较 大 。 有 报道 号 称 某 位 患者 体内 的 基因 ABCCS 
的 34 号 外 显 子 突变 , 导致 新 生 儿 肾病 , 但 是 由 于 该 患 
者 开始 时 被 误诊 为 1 型 糖尿 病 , 从 而 错过 了 最 佳 治疗 
时 间 , 最 终 发 展 为 肾病 晚期 , 这 也 间接 证 明了 基因 
ABCCS 与 糖尿 病 性 肾病 可 能 具有 相关 性 。 
49 ROC 曲线 评价 

对 本 文 得 到 糖尿 病 的 疾病 -基因 、 疾 病 -药物 和 基 
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-药物 之 间 的 所 有 关联 结果 进行 准确 性 验证 ,关联 
验证 标准 中 如 下 : 
(1) 真 阳 性 (TP): 有 已 知 且 确 定 的 直接 关联 或 共 现 
次 数 大 于 等 于 3, 例如: 2 型 糖尿 病 与 基因 ABCC8 
(2) 假 阳 性 (FP): 无 直接 关联 且 共 现 次 数 小 于 3。 
在 SPSS20 环境 下 使 用 ROC 曲线 判断 算法 性 能 ， 
如 图 7 所 示 。ROC 曲线 下 的 面积 分 别 为 0.804 0.815 
和 0.745, 关联 准确 度 中 等 偏 上 ,相应 的 标准 误 分 别 为 
0.037、0.076 和 0.043, P 值 均 为 0.000, 95% 置 信 区 间 分 
别 为 (0.733, 0.876)、(0.666, 0.964) 和 (0.661, 0.828)。 
与 其 他 关联 挖 气 算 法 9 " 类似， 本文 也 得 到 一 些 
假 阳 性 (预测 性 ) 结 果 , 这 也 是 生物 医学 实体 关联 挖掘 
的 目标 之 一 : 提出 预测 性 的 研究 假设 ， 帮助 科研 人 员 
设计 相关 实验 方向 中 1。 
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b. Null hypothesis: true area = 0.5 
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图 7 ROC 曲线 性 能 评价 


空间 数据 立方 体 概念 建 模 需要 定义 两 种 元 数据 : 
一 是 来 自 多 种 数据 源 、 可 维护 的 、 集 成 的 、 具 有 模型 
数据 结构 的 仓库 元 数据 ; 二 是 可 以 满足 决策 者 分 析 需 
求 的 、 集 成 的 仓库 元 数据 5。 本 文 定 义 识别 得 到 的 实 
体 (如 疾病 、 基 因 、 药 物 ) 为 第 一 种 元 数据 ， 而 文献 资料 
和 词典 则 定义 为 第 二 种 元 数据 ， 因 此 ,得 到 一 种 基于 
网 络 的 多 维 数据 集 模型 。 

此 外 ,本 文 并 没有 检索 到 一 些 糖尿 病 常用 药物 : 
Ti JS 1; K (Insulin) 4I — FH ILAA (Metformin) F, JRA 4 
T: 本 算法 检索 时 使 用 的 药物 词典 是 FDA 公布 的 
Drug Bank 数据 库 ， 其 中 胰岛 素 有 9 种 名 称 : (Insulin 


Regular), (Insulin Glargine), (Insulin Lispro), (Insulin, 


Porcine), (Inhaled insulin), (Insulin Aspart), (Insulin 
Detemir) , (Insulin Glulisine) 和 (Insulin, Isophane), 在 文 
献 摘 要 中 完全 匹配 的 检索 结果 均 为 零 ; 而 二 甲 双 肢 在 


这 一 年 内 的 糖尿 病 相关 文献 摘要 中 ,只 检索 到 10 篇 
(support 值 约 为 0.026%), 小 于 设 定 的 support BAE. 
(-0.194). 

本 研究 扩展 了 网 络 模式 分 析 疾 病 -药物 -基因 关 
联 ， 网 络 中 的 节点 代表 生物 医学 实体 存储 在 RDF 三 元 
组 ( 即 疾病 、 药 物 、 基 因 ), 边 表示 生物 医学 实体 间 的 关 
联 (如 “谓词 "关系 ), 为 简单 起 见 ， 关联 均 设 为 单 向 关联 ， 
丢弃 了 边 的 方向 和 类 型 ， 即 只 要 两 节点 间 有 关联 , 便 
认为 这 两 个 节点 间 有 边 。 这 样 简 化 疾病 药物 基因 的 关 
联网 络 中 的 网 络 模式 有 两 点 作用 : 基本 可 以 代表 疾病 
基因 药物 之 间 的 相互 关系 ; 反映 了 一 个 可 以 有 效 实现 
特定 功能 的 框架 。 

本 文 创新 在 于 : 在 生物 实体 关联 挖掘 研究 领域 ， 
提出 一 种 基于 数据 立方 体 的 新 方法 , 挖掘 实体 关联 ， 
并 结合 关联 规则 对 实体 关联 程度 进行 分 析 排 序 ; 以 疾 
病 -基因 -药物 这 三 种 不 同 生 物 实体 为 研究 对 象 , 挖掘 
新 关联 ,而 CoPub 挖掘 的 是 基因 -疾病 、 药 物 - 疾 病 的 


Data Analysis and Knowledge Discovery 


201712.01355v1 


chinaXiv 


ChinaXiv 合 作 期 刊 


应 用 认 


关联 PubGenenal 公 挖掘 基因 -基因 间 的 关联 , Sun 等 ea 控 


掘 药物 -药物 间 的 关联 ; 使 用 ROC 曲线 验证 本 文 算法 


得 到 曲线 下 面积 分 别 为 0.804、0.815 和 0.745, 优 于 同 
类 算法 (如 : CoPub 和 PubGene), 因此 本 文 算法 性 能 


Tr 
J o 


下 一 步 工作 是 在 更 大 规模 数据 中 评估 本 算法 的 性 


能 , 确保 推广 效果 。 
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Extracting Disease-Gene-Drug Correlations Based on Data Cube 


Wei Xing"? Hu Dehua! Yi Minhan! Zhu Qizhen! Zhu Wenjie? 
! (Institute of Information Security and Big Data, Central South University, Changsha 410083, China 
Y 
"(School of Basic Courses, Bengbu Medical College, Bengbu 233003, China) 


Abstract: [Objective] This study aims to construct a disease-gene-drug correlation network for diabetes mellitus (DM). 
[Methods] First, we proposed a new data cube-based approach to construct a disease-gene-drug correlations network 
for the DM. Then, we measured the associations among the biological entities. [Results] We retrieved the needed data 
from the PubMed database and constructed three 1-D vertex cubes, three 2-D square cubes and one 3-D 
disease-gene-drug network, which revealed 411 associations among the 14 subclasses of DM, 23 genes, and 24 drugs. 
We also constructed 8 optimal disease-gene-drug subnetworks of DM. [Limitations] There were some subjective issues 
with the data analysis. The changing of user behaviors may also influence the results. [Conclusions] The proposed 
algorithm is better than the existing ones, which provides new directions for research on customized medical treatments. 


Keywords: Disease Gene Drug Data Cube Association Rules Correlations Network 


微软 携手 亚马逊 推出 全 新 Gluon 深度 学 习 库 


据 外 媒 报道 , 近日 微软 与 亚马逊 宣布 正式 达成 战略 合作 ,并 联手 推出 全 新 深度 学 习 库 “Gluon”。 届时 , Gluon 接口 将 为 开 
发 者 们 提供 一 个 Python API 和 预先 构建 的 神经 网 络 组 件 ， 让 他 们 可 以 更 加 流畅 地 调试 和 更 新 。 当 前 , 该 深度 学 习 库 仅 支 持 
Apache MXNet。 不 过 微软 表示 , 将 很 快 支持 该 公司 的 认 知 工具 包 (CNTK)。 构 造 一 个 神经 网 络 的 难题 ,在 于 保持 模型 构建 和 
训练 性 能 之 间 的 平衡 。 以 Apache MXNet 深度 学 习 引 擎 为 例 ， 从 开发 者 的 角度 来 看 ,微软 认 知 工具 包 (Microsoft Cognitive 
Toolkit)fll Google TensorFlow 确实 可 以 在 一 定 程 度 上 优化 训练 的 过 程 , 但 通常 需要 大 量 的 时 间 和 复杂 的 编码 。 而 Gluon， 则 
为 开发 者 们 提供 了 针对 各 种 神经 网 络 模型 的 试验 接口 , 以 及 对 底层 性 能 几乎 没有 任何 影响 的 训练 方法 。 
微软 人 工 智 能 研究 执行 副 总 裁 Eric Boyd 表示 , Gluon 接口 可 以 给 开发 者 们 “相当 自由 的 选择 "。 至 于 它 能 对 整个 机 器 学 习 
社区 发 挥 多 大 的 影响 力 , 仍 有 待 时 间 去 检验 。 
(来 自 : http://www.afenxi.com/post/48391) 
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